.
Airbnb est une société américaine de location de vacances en ligne basée à San Francisco, en Californie. Airbnb maintient et héberge une “place de marché”, accessible aux consommateurs sur son site web ou via une application. Grâce à ce service, les utilisateurs peuvent organiser des hébergements, principalement des séjours en famille d’accueil, et des expériences touristiques, mais encore répertorier leurs propriétés à louer. Airbnb ne possède aucune des propriétés répertoriées ; au contraire, elle tire profit de la commission qu’elle perçoit sur chaque réservation. La société a été fondée en 2008 par Brian Chesky, Nathan Blecharczyk et Joe Gebbia. Airbnb est une version abrégée de son nom original, AirBedandBreakfast.com.
L’objectif principal de ce projet d’open DATA est de croiser différentes bases de données, c’est-à-dire les mettre en relation afin d’être capable d’en tirer de nouvelles informations. Nous voulons, à travers ce travail, d’une part comprendre dans son intégralité la façon dont le prix d’un bien et obtenus, et d’autre part, être capable de proposer le meilleur bien selon l’envie du client. Pour ce faire, nous utiliserons donc plusieurs bases de données, tous d’abord nous disposons du détail des offres Airbnb disponibles dans les villes françaises de Bordeaux. Ensuite nous disposons de la base de données regroupant le prix du marché immobilier où nous nous concentrerons particulièrement sur le marché locatif. Nous avons également à disposition la base de données des réservations des bien Airbnb pour l’année 2021, et enfin nous avons une grosse base de données regroupant une multitude d’avis client sur les biens Airbnb.
Dans un premier temps nous voudrions être capable de découvrir quels sont les facteurs qui influencent le prix de la nuit d’une réservation Airbnb. Pour ce faire nous regarderons attentivement l’ensemble des variables qui influent sur le prix de la location. Nous nous attendons à ce que la position géographique, le quartier, le type de chambre ou de logement, le nombre de salles de bains, la notation des clients soient de puissants prédicteurs. Dans un second temps, nous allons nous concentrer sur la description du bien airbnb proposée par le propriétaire. En effet, cette information est une des clefs pour comprendre la représentativité des biens disponibles. Dans cette section nous utiliserons des méthodes et outils de traitement du language pour en tirer des informations pertinentes. De plus, nous voulons proposer un outil de visualisation simple et intuitive qui permettrait de mettre en relation nos bases de données, cet outil se présentera sous forme d’une carte interactive. Nous pourrions ainsi détecter au mieux certains biens Airbnb dit “hors du marché”, on retrouverait par exemple les biens d’exceptions. Nous pourrions être capables, au sein d’un même quartier, de déterminer le type de bien qui fonctionne et qui anime les réservations. Ce travail nous permettrait peu d’être de mettre en relation les différents quartiers et les caractéristiques des consommateurs qui réservent. Enfin, nous utiliserons notre jeu de données regroupant l’ensemble des avis clients sur les biens loués, afin d’en extraire l’idée, le sentiment général, celui qui reste en tête. Cette dernière analyse, faisant également appel aux notions de traitement de language, nous permettra de connaitre le type de biens qui fonctionne à travers une analyse sentimental des commentaire client.
Airbnb, comme beaucoup d’autre web service, tient à ce que ses données restent privées et elle ne permet pas aux internautes d’accéder à leurs données en Opendata. Toutefois, Murray Cox, un photojournaliste australien, est parvenu à rendre certaines données de la plateforme en libre accès. Ainsi, par le biais de son site insideAirbnb, ce dernier permet l’accès à de larges tables de données concernant une quarantaine de villes dans le monde. Une telle alternative est appréciée par la communauté des data scientists et permet alors de mieux comprendre comment se comporte le phénomène Airbnb au sein même d’une ville mais également sur le plan international. Nous nous intéressons exclusivement aux données de la ville de Bordeaux, à partir du jeu de données brutes, nous sélectionnons les variables qui nous semble utile dans cette première analyse et pour expliquer le prix. Nous avons selectioné ces variables :
La deuxieme partie de notre projet s’interressera aux commentaires de tous les locataires de l’année 2019 à l’année 2020. Nos variables d’interet sont donc :
De plus, nous avons utilisé par la suite une base de données contenant le prix des loyer par ville et par quartier. L’objetcif avec cette base de données est de mettre en relation le marché locatif et le marché des biens Airbnb. Elle est cosntitué comme suit :
Base_OP_AAAA_LXXXX.csv : Ce fichier fourni les statistiques sur le niveau des loyers du parc locatif privé au 01/01/AAAA. Elles sont fournies à l’échelle de l’agglomération, de différentes zones géographiques plus fines ainsi qu’à l’échelle de la ville centre et de sa périphérie (pour certaines agglomérations).
Les fichiers KML permettent d’afficher sur une carte à partir d’un logiciel de SIG les contours du périmètre d’observation « LXXXX_agglo_AAAA.kml », des zones géographiques « LXXXX_zone_cal_AAAA_1.kml », de la ville centre et sa périphérie « LXXXX_zone_compl_AAAA.kml » et des communes « LXXXX_zone_elem_AAAA.kml »
Les analyses descriptives sont les premières manipulations à effectuées dans une étude quantitative, leur objectif principal est de résumer et d’explorer le comportement des données impliquées dans l’étude. En utilisant des techniques statistiques telles que la distribution des fréquences, les mesures de tendance et les mesures de dispersion, nous pouvons mieux comprendre la façon dont les phénomènes étudiés se comportent.
Il faut tout d’abord s’occuper de nettoyer notre jeu de données. Pour les variables catégorielles dites “simple” telles que le quartier, la ville, le nombre de couchage, …, ne nécessite pas de traitement particulier. En revanche il faut s’assurer que les valeurs extrêmes n’affectent pas nos résultats, nous gérons égalementlesvaleurs manquantes en supprimant les biens trop affectés par des valeurs manquantes. Premièrement, nous nous concentrons sur la répartitions des biens Airbnb en fonction de la ville.
## Frequency Percent
## Bordeaux 6796 64.343874
## Merignac 536 5.074796
## Talence 463 4.383639
## Pessac 407 3.853437
## Bgles 348 3.294831
## Le Bouscat 297 2.811967
Nous remarquons directement, au vu des résultats et de façon logique, que la grande majorité des biens Airbnb (près de 65% des biens) se trouve dans la ville de Bordeaux. Les villes avec le plus grand nombre de biens sont ensuite, Mérignac, avec près de 5% des biens Airbnb, grande ville avec l’aéroport de la zone, ce qui justifie grandement ce resultat. Talence, avec près de 4,4% des biens Airbnb, une grande ville connu pour sa grande activité étudiante principalement.
Pour obtenir des résutats plus parlant, nous proposons une representation par quartier et non plus par ville. Ce point de vu nous permet alors que comprendre mieux comment sont répartie les biens au sein de la ville centre qui est Bordeaux. Ci-dessous le graphe représantant le top 10 des quartiers/zones les plus représentées sur Airbnb.
Comme attendu, le fait de regarder par quartier de façon plus precise nous permet de savoir comment sont répartie les biens, principalement dans la ville de Bordeaux. Il en ressort la très fortes activité du centre ville de Bordeaux, avec près de 18% des biens. Le sud de Bordeaux est également tres important avec pres de 15% des biens Airbnb. Nous retrouvopns ensuite des quartiers comme celui des Chartrons - Grand Parc - Jardin Public, Nasouty, Bordeaux Maritime, regroupant entre 5et 10% des biens Airbnb. Pour mieux voir et comprendre ce qui se designe derrière cette distributions, nous representons un top 10 des quartiers les plus présent sur le site Airbnb.
Parlons prix, c’est le nerf de la guerre puisque qu’il agrège à lui seul toutes les caractéristiques du biens et permet au client de faire son choix en fonction de son budget. C’est l’élément le plus essentiel sur un site de location de biens puisqu’il est capable de déclencher une reservation. Concernant sa distribution des prix, nous tracons l’histogramme des prix pour l’ensemble des biens considérés.
En tracant la répartition des prix, nous remarquons une forte amplitude sur les prix, avec une enorme concentration pour les prix entre 0 et 250 euros la nuit. Nous nous rendons bien compte que les biens d’exeption influent complètement sur ce type de graphe avec des prix par nuit explosant pour atteindre pres de 8000 euros la nuit. Comme la distribution originale est très asymétrique, la transformation logarithmique peut être utilisée pour obtenir un meilleur aperçu des données.
Nous obtenons alors une meilleur distribution avec un prix moyen de 90 euros, notons que même avec cette transformation, la quasi totalitées des biesn se trouvent dans une meme tranche de prix. Ce reésultats reste rassurant car une location se trouvera toujours dans une meme tranche de prix, avec des biens exeptionnels bien plus cher mais en très petite quantitées.
Le prix est, comme nous l’avons dit, la varibale cible, il est important de pousser l’analyse plus loin, nous nous sommes donc intérogé sur les varibales autre que le prix dans le listing de nos biens Airbnb pour comprendre au mieux ce qui impact significativement le prix. Pour ce faire nous representons l’importance des variables dans notre modèle en utilisant une forêt alétoire. Les paramètres choisis sont standards avec un nombre de 500 arbres et un mtry de 2. Notons qu’un découpage apprentissage/test a également été effectué.
A l’aide du package RandomForest, nous sommes en mesure d’afficher un tel graphe qui nous indique, pour notre modèle, que le prix est principalement impacté par le nombre de personnes qu’il peut acceuillir. Ce resultats est tout à fait cohérent voir évident, plus le logement permet d’acceuilir de personnes, plus il est cher. Dans ce sens, on a aussi le nombre de couchage disponible qui fait grimper le pric de façon significative. Bien évidement, la localisation exacte ainsi que le quartier et la ville à aussi un gros impacte sur le prix. Enfin, les commodités, le type de biens et le score donné par les usagers sont des élemetns important dans la constitution du prix de la nuité.
Dans cette section, et pour faire echos à ce que nous avons vu juste precédement, nous allons voir le lien entre le prix du biens Airbnb et sa localisation, c’est à dire de à la longitude et latitidue du biens considéré, mais également de son quartier. Cette analyse nous permettra d’obtenir des réponses intéressantes, telles que “Quels sont les 10 quartiers les plus chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers les moins chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers/villes adjacentes les plus reservées sur airbnb?”. Tout cela avec des graphiques très attrayants et informatifs que nous allons voir par la suite.
Le graphe ci-dessus nous indique le top 10 des quartiers ayant à la fois les prix de réservation les plus chères de la région mais également les moins chères.Lorsque l’on observe le top 10 des quartiers les plus chères, nous pouvons nous pencher sur les quartiers tels que Toctoucau, le Monteil et Bouliac. Pour comprendre ce qui caractérise ces quartiers chers, il est important de les étudier à l’aide de données démographiques.
Toctoucau, avec un prix moyen par nuit de 169 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 2585 habitants qui ont une moyenne d’âge de 39 ans, ont des revenus confortables, vivent majoritairement en famille, et sont principalement propriétaires de leur logement.
Le Monteil, avec un prix moyen par nuit de 167 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage urbain et à l’ambiance animée, abrite 3262 habitants qui ont une moyenne d’âge de 40 ans, ont des revenus confortables, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de commerce, de loisir, de culture, de santé, d’éducation.
Bouliac quant à elle, avec un prix moyen par nuit de 168 euros, est une commune calme du département de la Gironde (33270). Les 3040 habitants sont en majorité des couples et célibataires. Ils sont plutôt propriétaires de leur logement (64 %) et ont des revenus aisés (41100 euros par ménage).
De cette analyse il en ressort de façons cohérentes que ces quartiers sont des zones où le confort est bon, avec un nombre d’habitants raisonnables autour des 3000 personnes. Les infrastructures de santé ou d’éducation y sont particulièrement bien représenté ce qui favorise une population aisée. De plus, il est intéressant de noter que pour quasiment tous les quartiers de ce top 10, les espaces sont grands, dans cette optique, les biens mis à disposition des utilisateurs Airbnb sont pour la grande majorité des maisons avec de grande et belle superficie. Nous comprenons alors bien comment ces quartiers se retrouvent avec des prix moyens les plus élevés.
Pour les quartiers les plus accessibles, nous pouvons réaliser le même travail pour essayer d’expliquer ces prix à partir de données démographiques. Concentrons-nous sur les quartiers de la Saige, le quartier de Beaudésert et enfin le quartier du Burck.
Saige est une zone industrielle de la commune de Pessac (33600). Les 5130 habitants sont en majorité des couples et célibataires. Ils sont très jeunes, locataires de leur logement (83 %) et ont des très petits revenus (19400 euros par ménage). Il y a de très nombreux HLM (63 %).
Le Burck est un quartier de la commune de Mérignac (33700). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 1833 habitants qui ont une moyenne d’âge de 36 ans, ont des revenus modérés, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de sport, de loisir, de culture, d’éducation.
Beaudésert est un quartier de 2 560 habitants de la ville de Mérignac dont 70 % des habitants sont locataires. Beaudésert est un quartier calme avec 57 % d’appartements et 43 % de maisons. Il y a 50 commerces de proximité dont des commerces, des restaurants et un supermarché.
Là encore, il ressort de cette analyse de façon cohérente que ce sont des zones où le confort est moins présent. Bien que nombres d’habitants sont similaires, il y a bien plus d’appartement et de personne en situation de location, avec des situations plus précaires, ce sont des espaces plus petits où la vie est agréable certes, mais avec une concentration de gens avec des revenus plus faibles. De la même façon qu’avec les quartiers riches, le prix des Airbnb est directement impacté par le contexte démographique qui définit la zone.
En somme, ce qui semble impacter de façon très significative le prix des Airbnb est d’un part la qualité du bien proposé. En effet plus un bien dispose de grands espaces plus il sera chere, mais pour un bien de même superficie, le contexte démographique sera toujours un critère déterminant. Ces analyses restent très cohérentes puisque dans le cadre d’une location Airbnb, on imagine aisément que le choix du quartier est un critère prépondérant pour les clients qui souhaite passer un agréable moment dans les lieux, mais également aux alentours.
Pour mieux examiner la disparité au niveau des prix des logements nous allons créer une nouvelle variable catégorielle qui nous permettra de différencier les biens en quatres sections : Lowcost, Standard, Haute-Gamme et Luxe. Nous observons donc une répartition assez équitable au niveau des différentes catégories de prix de location.
Dès lors, avec cette nouvelle varinale, nous pouvons par exemple regarder l’action de ces catégories de prix sur les différents quartiers et villes, notamment sur les villes de nos tops 10. Nous allons donc voir, pour chacune des villes top 10 des plus chères et les tops 10 des villes les moins cheres, comment se décompensent les distributions en fonction de cette catégorie qualitative artificielle. Nous obtenons ce graphe ci-dessous.
Pour les quartiers les plus chères, nous voyons donc, pour chaque ville, des parts très importantes pour les biens de catégorie luxe et haut de gamme. En proportion dans ces villes, nous voyons bien que la part des biens de catégorie low-cost est la plus faible en proportions. De la même façon, avec le graphe pour les 10 villes les moins chères du secteur, nous observation cette fois-ci que pour toutes ces villes, les majorités des biens sont de classe low-cost et Standard. De façon très claire, la catégorie des biens airbnb classé en luxe ne sont absolument pas représentés.
Il est important de noter que l’ensemble des résultats obtenus ici sont concordants avec les données démographiques de ces villes. Enfin, nous notons que malgré les fortes inégalités de distribution pour le standing des biens airbnb au sein des différentes villes, les villes où quartiers chers ne sont pas neccesserement les plus fréquentés par les clients d’airbnb. Pour appuyer ses dires, nous représentons la catégorie des logements en fonction des villes en moyenne les plus louées.
En effet Bordeaux est effectivement l’attraction principale sur airbnb, effectivement ce n’est bel et bien une grande et belle ville touristique de France, donc aucune surprise. Il en découle aussi qu’elle est assez chère comparativement aux villes. Notons que pour la ville de Bordeaux dans son ensemble, toutes les catégories de biens semblent être représenté de la même manière. C’est un résultat qui s’explique encore grace aux données démographiques car Bordeaux regroupe des habitants de toute revenue et avec des biens de toutes qualités.
Enfin, nous proposons une visualisation graphique et interactive du prix des biens Airbnb sur une map. À noter que l’échelle a été adaptée afin d’être plus détaillée dans les niveaux de prix par nuits qui regroupent la quasi-totalité des Airbnb.
L’asymétrie au niveau des prix se retrouve encore une fois ici, Pour régler ce souci on se permet de ne regarder que les biens Airbnb avec une paris par nuit inférieure à 1000 euros, les biens exceptionnels étant très rare en proportion, ont les oculte pour avoir un graphe plus lisible. Ci-dessous la représentation des distributions de prix en fonction du type de biens.
Sans grande surprise on se rend bien compte ce que les Chambres partagées et les chambres privées sont les biens les moins onéreux, contrairement aux chambres d’hôtels et aux biens complets qui sont bien plusieurs chere en moyenne. Cependant les soucis de distribution ne nous permment pas de voir clairement les informations, en complément, nous traçons donc également le prix des biens Airbnb en fonction du type de biens avec la transformation logarithmique.
Après avoir effectué cette transformation, nous voyons que les biens les plus accessibles sont les chambres partagées, suivis par les chambres privées puis on y retrouve le gros des biens Airbnb qui sont les appartements et maison entière. Enfin, et de façon plutôt cohérente, ce sont les chambres d’hôtels qui sont les plus chere, ce prix fort est certainement des services annexes proposés par les hôtels. En mettant en relationo les différentes catégories de prix créent et les types de logements nous observons la domination sans failles des logements “Entier/appartement” comparé aux autres types de logements suivis des “chambres privées” et à la traine les “chambres partagées” et “chambres d’hôtels”.
Maintenant, nous traçons le graphe des catégories de prix en fonction du type de logements existant.
Les catégories de prix confirment l’analyse précédente, nous pouvons effectivement bien le distinguer sur la deuxième figure, qui est juste un zoom de la première figure. En effet les hôtels et logement entier/appartement sont souvent très chères (domination des catégories “luxe” et “Haute gamme”) tandis que les “chambres partagées” et les “chambres privées” sont moins chères (domination des catégories “Low-cost” et “Standard”).
Nous pouvons également voir si le prix des biens Airbnb est en relation direct avec le nombre de personnes qu’il peut accueillir, ce qui est tout à fait logique.
De façon naturelle et très intuitive, plus le bien Airbnb est capable d’accueillir de personnes, plus le prix du bien est élevé. Nous pouvons même déduire une relation purement linéaire entre capacités d’accueil et prix. De plus, nous remarquons que quand le nombre de personnes louant un airbnb est inférieure 3 la catégorie dominante des biens est le “low-cost” et dès que le nombre apparaît supérieur à 4 la catégorie dominante et “luxe”. Tout simplement car un grand appartement coutera plus chère et accueillera plus de personnes. Le prix est en corrélation directe avec la capacité d’accueil.
Nous avons été très intérrésé de voir que bien pour chacun Airbnb, nous avons à disposition une liste non-non exaustivedes commiditées présentes dans les biens proposés. Nous nous sommes alors posé la question de savoir si, d’une part, les commodités présentes dans les biens impactent le prix de la nuit, d’autre part, de quelle façon et avec quelle importance ce prix est affecté.
Nous imaginons aisément que plus bien le Airbnb dispose de “fonctionnalités”, de commodités, ou en tout cas d’atout énoncé dans l’annonce Airbnb, plus le prix sera haut. De par cette première analyse textuelle, nous nous rendons bien compte que les critères tels qu’une terrasse, un parking, le fait d’avoir internet et bien dautre impacte le prix de façon significative.
Dans cette partie notre but serait de modéliser les catégories de prix en fonction de nos différentes variables explicatives. Dans un premier temps nous essayer de modéliser toutes les catégories à l’aide d’une regression logistique multinomiale et enfin nous allons nous focaliser sur les deux catégories extrèmes i.e “Low-cost” et “Luxe”.
La regression logistique multinomiale ne nous donne cependant pas une erreur test de prédiction satisfaisante i.e 45%. Cependant nous avons pu à l’aide du modèle créé effectué une selection à pas descendante ce qui nous à permi grace au critère de AIC de selectionner les variables que sont : “neighbourhood_group_cleansed,beds+review_scores_rating,room_type,accommodates”
Cette partie concerne en effet l’analyse des deux opposés. A travers une regression logistique binaire nous avons pu modeliser à niveau correct notre moodèle. Nous obtenons après une regression logistique basique un score de bonne prédiction d’environ 92%. Cependant nous pouvons tenter d’augmenter ce score en utilisant soit une matrice de cout, soit des algorithmes stochastiques.
Passoons ensuite à la création d’une variable d’interêt en utilisant des critères performances ce qui équivaudrait au revenue minimal engendré par l’hote d’un appartement airbnb. Pour la création de notre nouvelle variable on va utiliser les variables :
- nombre de location du bien
- nombre de nuits minimums et
- prix par nuit
Et on nomera la nouvelle variable réponse total_minimum_revenue = [nombre_de_visites] x [prix] x [nombre_de_nuits minimum] ce qui correspond à l’entrée d’argent minimum percue pour un logement.
## name price price_group
## 1 Grande maison centre ville Comme à la campagne 350 Luxe
## 2 B&B Apart.Suite / tropical garden 110 Luxe
## 3 Bordeaux Terrace - spectacular view, fast Wifi 157 Luxe
## 4 Bordeaux City Gardens - large 1 bd, park adjacent 124 Luxe
## 5 Key to Bordeaux - fairytale view, 2 bd + elevator 147 Luxe
## 6 STUDIO BORDEAUX TRIANGLE D OR ***** Climatisé 79 Haute gamme
## name total_min_revenue
## 1 Grande maison centre ville Comme à la campagne 1400
## 2 B&B Apart.Suite / tropical garden 8580
## 3 Bordeaux Terrace - spectacular view, fast Wifi 17898
## 4 Bordeaux City Gardens - large 1 bd, park adjacent 8928
## 5 Key to Bordeaux - fairytale view, 2 bd + elevator 26460
## 6 STUDIO BORDEAUX TRIANGLE D OR ***** Climatisé 25596
## price_group
## 1 Luxe
## 2 Luxe
## 3 Luxe
## 4 Luxe
## 5 Luxe
## 6 Haute gamme
Nous allons ensuite essayer avec des modeles de machine learning de voir ce qui caractérise notre nouvelle varaible notement à Bordeaux
## [1] "id" "beds"
## [3] "review_scores_rating" "accommodates"
## [5] "name" "host_id"
## [7] "host_name" "neighbourhood_group"
## [9] "neighbourhood" "latitude"
## [11] "longitude" "room_type"
## [13] "price" "minimum_nights"
## [15] "number_of_reviews" "last_review"
## [17] "reviews_per_month" "calculated_host_listings_count"
## [19] "availability_365" "Log1pPrice"
## [21] "price_group" "price_distri"
## [23] "total_min_revenue"
## (Intercept) calculated_host_listings_count
## 105.515009791 -0.006430446
## number_of_reviews availability_365
## 0.016310446 0.001015881
## price_groupLow-cost price_groupLuxe
## -0.592886156 0.498815331
## price_groupStandard beds
## -0.377297241 0.046042681
## room_typeHotel room room_typePrivate room
## -0.790644585 -0.423840033
## room_typeShared room accommodates
## -0.673881395 0.072422401
## review_scores_rating latitude
## 0.020926190 -2.247327845
##
## Call:
## lm(formula = log(total_min_revenue) ~ ., data = train_m)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.9144 -0.7644 0.1376 0.8502 5.5813
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.056e+02 6.616e+01 1.597 0.110423
## calculated_host_listings_count -6.434e-03 1.193e-03 -5.392 7.34e-08 ***
## number_of_reviews 1.631e-02 3.370e-04 48.388 < 2e-16 ***
## availability_365 1.017e-03 1.485e-04 6.848 8.51e-12 ***
## price_groupLow-cost -5.924e-01 6.185e-02 -9.578 < 2e-16 ***
## price_groupLuxe 4.996e-01 5.925e-02 8.432 < 2e-16 ***
## price_groupStandard -3.770e-01 5.103e-02 -7.389 1.76e-13 ***
## beds 4.639e-02 2.803e-02 1.655 0.098027 .
## room_typeHotel room -7.914e-01 3.005e-01 -2.634 0.008469 **
## room_typePrivate room -4.241e-01 5.831e-02 -7.273 4.13e-13 ***
## room_typeShared room -6.733e-01 3.327e-01 -2.024 0.043026 *
## accommodates 7.238e-02 2.106e-02 3.437 0.000594 ***
## review_scores_rating 2.095e-02 2.378e-03 8.808 < 2e-16 ***
## latitude -2.247e+00 1.475e+00 -1.523 0.127935
## longitude 2.573e-01 1.240e+00 0.208 0.835590
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.228 on 4417 degrees of freedom
## Multiple R-squared: 0.474, Adjusted R-squared: 0.4724
## F-statistic: 284.3 on 14 and 4417 DF, p-value: < 2.2e-16
## [1] 187703.2
Finalement notre modèle a un \(R^2\) dee 0.47 et un RMSE de 187703. Alors notre model est décalé d’environ 187703 dollars par prévision en moyenne. Nous n’allons donc guère selectionner ce modèle, par manque de sa précision mais il serait utile pour obtenir une liste de variables importantes pour notre variable réponse.
Nous remarquons bien que pour avoir plus de revenues il faut avoir un nombre conséquent de commentaires ce qui est totalement logique car plus l’hote à des commentaires au plus positif plus le “loueurs” se sentira en sécurité et confiant de pouvoir louer ce bien.
Bordeaux est la meilleure ville dans plusieurs domaines notamment le travail, tourisme, immobilier, restauration, circulation…Sur le premier semestre 2018, l’observatoire de l’immobilier LPI-Se Loger a désigné Bordeaux comme la ville la plus chère de province. À la faveur d’une nouvelle hausse des prix de 3,1 % sur le dernier trimestre, et de 15,4 % sur un an, Bordeaux reste la ville où les prix de l’immobilier sont les plus élevés en province, selon la dernière note de l’observatoire des prix immobiliers LPI-Se Loger. À 4 652 euros /m2, Bordeaux détrône en effet Lyon (4 530 euros), comme le rapportent 20 minutes. D’année en année ces chiffres ne font que grimper ainsi nous le constatons sur l’image suivante. Bordeaux est aussi la ville qui enregistre la plus forte hausse sur un an, encore devant Lyon (+ 10,3 %) et Angers (+ 7,7 %).
.
Nous avons donc recueilli les données de l’observatoire dans le but de les mettre en relation avec nos données airbnb. Voici ci-dessous la carte de Bordeaux avec les différentes zones de prix du loyer mensuel au \(m^2\).
Sur cette carte, nous remarquons très bien le phénomene de “centre ville”, qui signifie que lorsque l’on se raproche du coeur de l’activité au sein d’une grande ville, les loyer augmente de façon significative. Nous voyons tres bien la concentration elevé de zones a 13euros/m2 au centre de Bordeaux. Plus nous nous elloignons du centre, plus le prix au metre carré en location diminue.
Dès lors, il est intérrésant d’afficher en superposition tous les logements airbnb à disposition pour deceler ou non un liens entre prix du marché locatif et les prix des biens Airbnb. C’est ce qui est fait sur la map intéractive ci-dessous.
De très nombreuses informations peuvent être tirées de cette map. D’une part, comme nous l’avons énoncé précédemment, une grande majorité des biens airbnb se trouve en réalité dans un prix plutôt similaire autour de 50 et 100 euros la nuit. D’autre part, aucun schéma ne semble apparaitre quant à l’ajout des points représentant les biens Airbnb. En effet toutes les catégories de prix semblent être représenté dans toutes les zones.
En zoomant par exemple sur la zone de Bordeaux centre, où le prix des loyers est très haut, nous voyons que les biens Airbnb existant ne sont absolument pas tous des biens avec des prix chère. en réalité nous nous rendons compte que pour des locations Airbnb, nous trouvons tous types de biens, pour tous les prix, dans toutes les zones. Nous expliquons ce phénomène par le fait que, pour un prix d’une nuitée équivalent, les bien proposé dans une zone hors centre-ville sera toujours de meilleures qualités qu’un biens au centre-ville d’un point de vue qualitatif (commodités, surface disponible, nombre de lit, de salle de bain etc).
Bien que les biens Airbnb ne semblent pas avoir de liens directs avec le prix du marché locatif, nous savons que la localisation du bien affect de façon significative le prix du bien mit à disposition. Enfin, nous pouvons dire que si le client souhaite louer un bien, non pas selon son emplacement, mais en maximisant la qualité du biens loués, il devra se diriger vers les zones avec des loyers les plus bas, c’est dans ces zones que les biens Airbnb avec un prix élevé sont très jolis avec des surfaces très agréable.
Dans cette section, nous nous intéressons aux données textuelles que nous avons à disposition. Nous nous pencherons d’abord sur les noms des annonces Airbnb, qui est un critère très important pour un propriétaire qui souhaite mettre en location Airbnb son bien. Ensuite nous utiliserons la base de données contenant l’ensemble des commentaires et critique des clients sur les biens Airbnb qu’ils ont pu louer durant leur séjour. Nous ciblerons particulièrement les catégories extrême “Low-cost” et “luxe”.
Nous allons utiliser des méthodes et techniques de traitement du language naturelles pour pouvoir comprendre comment est choisi un titre d’annonce et ce qu’il peut nous apporter comme informations sur les catégories que l’on a préalablement créées. Nous nous pencherons enfin sur les commentaires des utilisateurs pour comprendre et analyser les liens entre commentaire et la note officielle des biens disponibles sur Airbnb. Pour ce faire nous utiliserons des techniques permettant d’extraire les sentiments énoncés par les clients dans leurs commentaires.
Concentrons-nous sur les titres des annonces Airbnb disponible dans notre base de données prioritaire, celle qui regroupe le listing complet des biens a disposition sur le site. Nous allons donc effectuer une transformation de nos données textuelles qui se trouve dans les titres des annonces airbnb, pour analyser ce qui rend leur particularité au loyer très inférieur et très supérieur.
En effectuant quelques statistiques descriptives, nous notons la présence, dans nos données textuels, de mots récurents. En effet, la pluspart des hotes utilisent à priori le meme champ lexical pour décrire leur bien. Nous pouvons ainsi observer le top des mots les plus utilisés par nos hotes et ce particulierement pour les catégories de bien Low-cost et Luxieux.
Comme énoncé plus haut, nous remarquons qu’effectivement, les mots les plus utilisés sont pour la plupart, les mêmes que ce soit concernant des biens de luxe ou des biens low-cost. Nous ne voyons cependant que les mots utiliser pour les biens de luxe caractérisent bien des biens luxueux, nous y trouvons des mots tels que jardin, piscine, parking, …. Pour les biens dit low-cost, nous retrouvons des mots tels que chambre, studio, privée, qui caractérise effectivement des biens de qualité bien moins importante, avec un prix evidement plus bas.
Nous representons aussi les bigrams de mots les plus fréquents a l’interieur des titres des annonces Airbnb.
## word1 word2 n both
## 1 de bordeaux 876 de bordeaux
## 2 centre ville 406 centre ville
## 3 bordeaux centre 305 bordeaux centre
## 4 avec jardin 256 avec jardin
## 5 avec piscine 236 avec piscine
## 6 chambre privée 225 chambre privée
Les bigrams de mots les plus reprensenté, sans surprise, parlent des biens Airbnb se trouvent en centre ville. Cette obeservation est dû du fait qu’il y a en porportions une grande quantitées de biens en ville. Notons de plus que les critères “avec piscine”, “avecjardin”, sont souvent representé car ce sont des atouts clef pour promouvoir son biens, lorsqu’’il dispose de ces atouts. Chose ainsi faite nous allons représenter un nuage de mots caractéristiques propres aux catégories des logements Lowcost et Luxe.
Nous notifions maison, piscine, bordeaux, villa, loft, jardin, terrasse comme caractéristique des biens à tendance luxieuse. On ne peut s’attendre à mieux car ce sont clairement les différents atouts qu’un logement peut avoir en plus valus comparé à la moyenne. Pour les logements Lowcost comme nous le montre le nuage de points ci-dessous les mots apparaissant sa chambre, studio, cosy, petit, centre. Plus le logement est petit plus il en faut des adjectifs convaincants pour appâter les loueurs en plus de la minimisation du prix de location.
De la même façon, pour le bien dit low-cost, on retrouve des mots tels que “chambre”, “bordeaux”, “appartement”, “petit”, “studio”. Ce sont des mots caractéristiques de biens avec des prix de nuiter plus faible. Les atouts de ces biens sont avancé avec des mots plus sobres et plus généralistes tels que les mots “calmes”, “agréable”, “causy”, etc.
Dans cette partie notre objectif est d’analyser les sentiments des commentaires des clients sur les locations airbnb dans le but d’y pouvoir identifier les logements avec les meilleurs différentes émotions, i.e. positive, surprise…Pour ce faire nous utilisons des méthodes de traitement du language naturelles avec notamment de la lemmatisation et tokenisation des différents commentaires font sur les biens Airbn.
Deux libraries de lexique seront utilisées, il s’agit des lexiques “bing” et de “nrc”.
L’analyse des différentes émotions recensées à travers les commentaires des clients des locations airbnb se traduit par les deux graphes ci-dessous :
Ce graphe nous permet de comprendre le message ressenti par l’auteur sur les biens Airbnb considéré. Nous nous rendons compte que dans la grande majorité des cas, les commentaires sont à tendance positive. Pour comprendre à quoi peut correspondre les critères positifs et négatifs, nous proposons une représentation en nuages de mots pour ces deux catégories. Nous retrouvons donc dedans les mots qui caractérisent les commentaires négatif et positif.
Pour aller un peu plus loin, nous nous sommes aidé de base de données déjà existant pour détailler au mieux le sentiment majoritaire d’un commentaire. Nous n’avons alors plus seulement que deux sentiments positif et négatif, mais un total de 10 sentiments précis nous permettant de détailler au mieux le message implicit d’un commentaire sur le site.
Nous notons que de manière générale les commentaires sont positifs, cela n’est pas étonnant sachant la popularité et l’essor de cette entreprise au cours de ces dernières années.Cependant en utilisant un lexique avec des émotions plus diversifiées nous pouvons apercevoir qu’en addition au commentaire positif( qui prédomine toujours) nous pouvons y discerner d’autres émotions comme la joie, la confiance, la surprise et l’anticipation. Nous allons donc essayer de recenser suivant ses différentes émotions prédominantes ou non le top 10 des logements.
PAS KOMPRIS MAIS OK